Simhash相关论文
在当今互联网环境下,愈来愈多的文档出现被随意复制、修改、变换格式、替换同义词等现象,这将导致大量核心内容甚至全部内容一样的......
重复数据和相似数据的处理是数据清洗的一项重要内容.针对招投标项目公告数据集存在大量重复信息的情况,结合该数据集为中文字符集......
恶意软件是当前互联网安全的主要威胁之一.文章以对恶意软件进行快速有效检测为研究目的,提出了SIC模型,该模型采用SimHash方法,利......
计算机网络技术的快速发展,导致恶意软件数量不断增加.针对恶意软件家族分类问题,提出一种基于深度学习可视化的恶意软件家族分类......
科技以追风逐电的速度渗透到各行各业,使数据量出现爆炸式增长,为减少存储成本与网络开销,重复数据删除技术被越来越广泛地应用于......
在无线传感器网络(Wireless Sensor Network,WSN)中,溯源(Provenance)记录数据的产生、处理以及传输等历史信息,是进行数据可信性......
随着计算机互联网的飞速发展,数据呈现指数级增长,越来越多的用户选择将数据存储在云服务器。云存储减轻了用户的存储管理负担,为......
21世纪是互联网的黄金时代。在这一期间,信息技术得到了快速的发展,因特网已经成为目前最大的知识宝库。其内容浩如烟海,包罗万象,......
虽然网络搜索引擎使得人们通过输入关键词就能从浩瀚的网络空间中获取自己想要的信息,但是在面对海量网页数据时,搜索引擎要想具有......
车辆定位技术在过去的几年蓬勃发展,同时,车用移动定位技术与自组织网络的融合发展带来了车联网技术的欣欣向荣。车联网中基于位置......
随着网络上视频拷贝的不断增多,快速有效的视频拷贝检测方法变得越来越重要.针对大规模的视频数据库,提出一种快速有效的视频拷贝......
Twitter已经成为微博中的代表性应用,但是通过分析发现twitter上的消息(推文)有很多完全一致或相似,这对后续对推文的分析和存储都带来......
摘 要: 针对传统SQL注入漏洞检测方法准确率和效率无法达到很好平衡的问题,提出了一种基于Simhash文本相似性检测的SQL注入漏洞检测......
针对海量视频检索,提出了一种基于SimHash的视频相似性检索方法。该方法的视频特征提取部分首先采用视觉词袋模型将视频关键帧表示......
摘要:局部敏感哈希(Locality Sensitive Hashing,LSH)算法,又称局部敏感散列算法,顾名思义,该算法产生的散列值是局部敏感的。对原始内容......
在中文文本相似去重中的关键词计算和提取阶段,文本分词后,存在高维、稀疏和缺乏语义词项,而这些大多没有实际意义的词会给计算带来噪......
随着计算机技术的飞速发展,各领域存储系统中的数据存储量迅猛上升,而其中的冗余数据也呈不断增加趋势。以往的研究表明,某些存储系统......
因特网上大量近似镜像网页的存在已经成为人们快速获取有效讯息的最大阻碍.为了解决网络上存在大量近似镜像网页的问题,研究人员提......
提出一个基于多层SimHash的相似度检测方法,通过对APK文件进行分析,最终从5个方面提取分析内容来表征APK,同时在每一层上使用改进......
针对云存储服务中存在的用户隐私保护需求,提出了一种在密文状态下的文档相似度计算方法。数据拥有者将文档ID、加密后的文档密文......
在当前复杂网络环境下,恶意代码通过各种方式快速传播、非法入侵用户终端设备或网络设备、非法窃取用户隐私数据,对网络安全和信息......
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征......
论文提出一种基于主成分分析(PcA)与Simhash的入侵检测技术。利用PCA得到属性的特征值作为权重,再利用Simhash的思想得到每一条数据的......
根据2017年OWASP最新公布的Web安全威胁评估报告显示,SQL注入攻击依旧位列各类攻击榜首。虽然国内外已提出了很多种SQL注入检测方......
在这个信息化和网络数字化即将到来的信息时代,互联网上的数据和信息每天都在海量地增长,各种信息的过载使得用户无法快速、准确地......
随着计算机网络技术和多媒体技术的快速发展,其相关技术已经被广泛应用到日常教学过程中。本文针对中等职业院校师生设计了在线答......
SQL注入攻击已逐渐发展成一种较为成熟的攻击手段,其攻击成本很低,但造成的危害却很大。虽然目前的主流检测手段非常多,但仍然存在......
Webshell后门是我国面临的严重安全威胁之一。由于Webshell隐蔽性强,已成为黑客布置后门的主要方式。传统Webshell检测方法普遍存......
针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提......
期刊
数据流处理的关键是应用高效的单趟扫描算法,创建数据流的概要结构。现有的概要结构存在着重构误差较大的缺点。作者针对这个问题,......
单机计算资源难以满足海量数据的冗余检测,提出基于Spark的海量数据冗余检测方法。先基于Simhash算法实现待测数据与对应指纹间的......
针对目前SQL注入攻击检测中存在的问题进行研究,提出一种基于SimHash算法的SQL注入检测方法,首先通过自学习过程将每一条SQL语句经......
在网络协议特征提取问题中,已有的基于频率统计和序列比对等算法在时间效率和准确率上有一定缺陷,因此提出了一种基于Simhash的高......
文本分类作为处理和组织大量文本数据的关键技术,为用户准确、快速查找所需信息提供依据。通过TF—IDF算法计算文本词汇的词频,并根......
针对重复数据删除算法指纹对比I/O瓶颈问题,提出一种基于相似聚类的二级索引重复数据删除算法.首先计算所有数据块的Simhash值,基......
相似检测算法在海量文本信息处理中具有广泛的应用,尤其是Simhash算法因其指纹局部敏感特性、检测效率高在文本查重、网页检测等大......
随着信息技术的飞速发展,互联网上的网页数据呈现出爆炸式的增长态势,大量近似镜像网页的存在已经成为人们快速获取有效讯息的最大......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
互联网的快速发展促进了信息共享途径的不断增多,也为代码抄袭问题提供了良好的便利;在高校教学领域,代码抄袭现象屡禁不止甚至愈......
计算机网络在给人们带来极大便利的同时也存在着各种攻击隐患,因此需要完善的异常检测系统消除这些隐患。针对传统的网络异常检测......
针对中文文本,抽取出文本内容特征,结合Simhash算法生成中文文本的语义指纹,通过语义指纹的海明距离判断文本间相似程度。整合Sing......
在对Web应用进行安全漏洞检测时,手动检测和所使用的网页比对算法都会影响到检测的准确率和效率,在传统的SQL注入漏洞检测技术的基......
如今网络和信息技术飞速发展,每天都有数以亿万计的文本数据产生。然而,不可避免地有很多文本内容是重复的。这样导致用户在利用搜索......
代码克隆检测在代码抄袭检测、代码审查、软件更迭和错误检测等方面有重要作用。为提高代码克隆检测的准确率,结合TF-IDF及马尔科......
随着计算机网络的快速发展和开源思想的普及,网络上开源代码、算法和功能模块等与软件开发相关的信息不断丰富着计算机软件的开发......
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清......